Romanian
Acum noi vorbim
Cum tehnologia vocii transformă calculatoarele
O vrajă magică permite oamenilor să controleze lumea prin cuvinte
7 ianuarie 2017
Orice tehnologie, care este suficient de avansată, a remarcat Arthur C. Clarke, un scriitor britanic de ficțiune, nu se poate distinge de magie. Dezvoltarea rapidă a tehnologiei de voce dovedește punctul său de vedere. Folosirea ei este la fel ca o vrajă: spui câteva cuvinte, iar un dispozitiv din apropiere poate să-ți satisfacă dorința.
Amazon Echo, un computer cilindric comandat prin voce, care se așează pe o masă și răspunde numelui Alexa, poate accesa piese muzicale și posturi de radio, spune glume, răspunde întrebărilor și controlează aparatele inteligente; chiar înainte de Crăciun se găsea în aproximativ 4% din gospodăriile americane. Asistenții vocali s-au răspândit și pe smartphone-uri: Siri din Apple are peste 2 miliarde de comenzi vocale pe săptămână, iar 20% din căutările Google pe telefoane cu Android în America sunt introduse prin voce. Dictarea e-mailurilor și a mesajelor text funcționează acum suficient de bine pentru a fi utile. De ce să tastezi când poți vorbi?
Aceasta este o schimbare uriașă. Pare simplu, vocea are puterea de a transforma modul în care folosim calculatoarele, oferind un mijloc natural de interacțiune. Ferestrele, pictogramele și meniurile, apoi ecranele tactile, au fost introduse ca metode mai intuitive de a interacționa cu calculatoarele decât de a da comenzi complexe de la tastatură. Dar posibilitatea de a vorbi cu computerele elimină nevoia de a obține abstractizarea unei "interfețe de utilizator". La fel cum telefoanele mobile erau mai mult decât telefoanele fără cablu, iar mașinile erau mai mult decât căruțele fără cai, tot așa și computerele fără ecrane și tastaturi pot fi mai utile, mai puternice și mai omniprezente decât ne putem imagina astăzi.
Vocea nu va înlocui în totalitate alte forme de intrare și ieșire. Uneori va rămâne mai convenabil să interacționezi cu o mașină prin scriere, mai degrabă decât vorbind (se spune că Amazon lucrează la un dispozitiv Echo cu un ecran încorporat). Dar vocea va fi folosită din ce în ce mai mult pentru a interacționa cu tehnologia din jurul nostru, de la mașinile de spălat care vă spun la ce ciclu de spălare au ajuns, până la asistenții virtuali din centrele de call corporatiste. Cu toate acestea, pentru a-și atinge întregul potențial, tehnologia necesită descoperiri noi - și o rezolvare a întrebărilor dificile pe care le ridică în jurul compromisului dintre conveniență și intimitate.
Alexa sau ce înseamnă învățarea profundă?
Sistemele de comandă vocală a computerelor se folosesc de mulți ani. Dar ele nu erau suficient de dezvoltate și aveau nevoie de o lungă perioadă pentru a recunoaște vocea unui anumit utilizator. Noua capacitate a computerelor de a recunoaște orice voce, fără o pregătire prealabilă, este cea mai recentă dovadă a puterii de "învățare profundă", o tehnică de inteligență artificială în care un sistem software este instruit cu ajutorul a milioane de exemple, de obicei preluate de pe internet. Datorită învățării profunde, mașinile de azi aproape au egalat oamenii în precizia de transcriere, sistemele computerizate de traducere se îmbunătățesc rapid și sistemele de tip text-voce devin din ce în ce mai puțin robotice și mai naturale. Computerele au devenit, pe scurt, mult mai bune pentru a înțelege și reproduce limbajului natural în toate formele sale (vezi Technology Quarterly).
Deși învățarea profundă înseamnă că mașinile pot recunoaște mai ușor vorbirea și vorbesc într-o manieră mai puțin evoluată, ele nu înțeleg încă sensul limbajului. Acesta este cel mai dificil aspect al problemei, dar computerele bazate pe voce vor fi omniprezente. Computerele trebuie să înțeleagă contextul pentru a menține o conversație coerentă despre ceva, mai degrabă decât să răspundă doar la comenzi vocale simple, așa cum se întâmplă mai ales astăzi ("Hei, Siri, setează cronometrul pentru zece minute"). Cercetătorii din universități și din companiile mari și mici lucrează la această problemă, construind "boturi" care pot purta conversații mai complexe cu privire la anumite sarcini, de la recuperarea informațiilor la consilierea ipotecilor, la a face aranjamente de călătorie. (Amazon oferă un premiu de 1 milion de dolari pentru un bot care poate conversa "în mod coerent și constant" timp de 20 de minute.)
Când vrăjile înlocuiesc ortografia
Consumatorii și autoritățile de reglementare au, de asemenea, un rol de jucat în determinarea modului în care se dezvoltă computerele vocale. Chiar și în forma sa actuală, relativ primitivă, tehnologia reprezintă o dilemă: sistemele bazate pe voce sunt cele mai utile atunci când sunt personalizate și li se oferă acces larg la surse de date, cum ar fi calendare, e-mailuri și alte informații sensibile. Acest lucru ridică probleme de confidențialitate și securitate.
Pentru a complica și mai mult problemele, multe dispozitive bazate pe voce "ascultă" continuu, așteptând să fie activate. Unii oameni sunt deja preocupați de faptul că microfoanele conectate la internet "ascultă" în fiecare cameră și din fiecare smartphone. Nu toate semnalele audio sunt trimise la dispozitivele cloud pentru a aștepta o frază de declanșare ("Alexa", "OK, Google", "Hey, Cortana" sau "Hey, Siri") înainte de a începe transmiterea vocii utilizatorului către serverele care gestionează efectiv cererile - dar când vine vorba de stocarea audio, nu este clar cine păstrează, ce și când.
Polițiștii care au investigat o crimă în Arkansas, care ar fi putut fi înregistrată audio de un Amazon Echo, au cerut companiei înregistrarea. Amazon a refuzat să coopereze, argumentând (cu susținerea avocaților de confidențialitate) că statutul juridic al acestor cereri este neclar. Situația este similară cu refuzul Apple din 2016 pentru a ajuta anchetatorii FBI să deblocheze iPhone-ul unui terorist; ambele cazuri evidențiază necesitatea unor reguli care să specifice când și ce intruziuni în viața privată sunt justificate în interesul securității.
Consumatorii vor adopta computere vocale chiar dacă astfel de probleme rămân încă nerezolvate. În multe situații, vocea este mult mai convenabilă și mai naturală decât orice alt mijloc de comunicare. Poți să vorbești și să asculți în timp ce faci altceva (conduci mașina, lucrezi sau mergi pe jos pe stradă). Comanda vocală poate extinde puterea calculatoarelor pentru a ajuta persoanele cu dizabilități, care nu pot să utilizeze ecrane și tastaturi. Și ar putea avea un impact dramatic nu numai asupra modului de calcul, ci și asupra utilizării limbii în sine. Traducerea simultană computerizată ar putea face nevoia de a vorbi o limbă străină irelevantă pentru mulți oameni; și într-o lume în care mașinile pot vorbi, este posibil ca limbile mai puțin răspândite să supraviețuiască. Apariția ecranului tactil a fost ultima mare schimbare a modului în care oamenii interacționează cu calculatoarele. Saltul până la comanda vocală este enorm.
Acest articol a apărut în secțiunea Liderii ediției tipărite sub titlul "Acum vorbim"